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摘要 : [目的 /意义 ] 尝试 以 统计 的 方法 为 指导 思想 ,探究 基于 词 向 量 扩展 的 语义 检索 技术 来 提升 学 术 资 源 
的 语义 检索 能 力 。[ 方 法 /过程 ] 利 用 自然 语言 处 理 、 文 本 挖 气 技 术 , 对 采集 来 的 学 术 资 源 (主要 是 学 术 论 文 ) 元 
数据 进行 预 处 理 ,结合 word2vec 词 向 量 生 成 工具 和 elasticsearch 全 文 检 索引 掌 搭 建 语 义 检 索 系 统 , 对 学 术 资 源 
进行 语义 检索 的 探索 研究 。[ 结果 /结论 ] 本 文 提 出 的 方法 能 够 有 效 提升 学 术 信 息 的 检索 效果 ,一 定 程度 上 实现 
学 术 资源 的 语义 检索 ,并 为 后 续 语 义 检索 的 进一步 研究 提供 借鉴 。 
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通过 语义 扩展 来 提升 学 术 信息 的 检索 效果 ,一 定 程 度 
上 实现 学 术 资 源 的 语义 检索 。 
一 学 术 用 户 的 信息 需求 往往 具有 专业 性 .知识 性 个 

tp、 多 元 化 便捷 性 和 人 性 化 的 特点 5 。 为 了 浦 足 这 
奖 用 户 特殊 的 信息 需求 ,相应 地 出 现 了 许多 学 术 资 源 2.1 语义 检索 研究 

兹 国库 :Web of Science、Science direct、 中 国 知 网 .万 方 目前 实现 语义 检索 的 方法 大 致 可 以 分 为 基于 规则 
活 林 等 。 这 些 学 术 数 据 亩 拥有 海量 的 学 术 资源 ,一 直 和 基于 统计 两 类 :基于 规则 的 语义 检索 主要 通过 人 工 
以 来 都 在 为 用 户 提供 着 高 质量 的 学 术 信 息 服 务 。 但 是 ”撰写 规则 知识 库 的 方式 ,构建 一 个 语义 知识 网 ,在 其 中 
种 类 繁多 的 学 术 资源 库 也 给 用 户 的 使 用 带 来 了 一 定 的 。 ”进行 语义 推理 ;基于 统计 的 语义 检索 以 数理 统计 为 工 
麻 焕 :用 户 往往 需要 在 儿 个 类 型 的 学 术 数 据 库 之 间 进 ” 具 , 不 要 求 在 事前 对 相应 知识 规则 进行 人 工 构建 ,而 是 
行 奏 询 ,才能 全 面 、 准 确 地 获得 自己 所 需要 的 信息 ; 同 。” 通过 相应 算法 在 大 规模 语料库 中 进行 总 结 ,归纳 出 词 
时 2 学 术 论 文 检索 数据 库 界 面 复杂 ,检索 式 繁多 ,对 于 ”和 文档 之 间 的 统计 信息 ,随后 对 词语 进行 语义 相似 度 


新 手 来 说 人 机 交互 效果 很 不 友好 ;而 且 , 大 多 数 的 学 术 ”的 计算 ,并 用 于 语义 检索 。 
资源 数据 库 目 前 主要 还 是 基于 关键 词 匹配 的 检索 ,用 语义 知识 库 是 基于 规则 的 语义 检索 较 早 的 一 种 实 
户 在 信息 检索 的 时 候 会 出 现 “ 词 汇 问 题 "” ,导致 信息 现 方式 ,目前 较为 著名 的 两 个 语义 知识 库 是 WordNet 
检索 系统 在 面 对 同样 的 检索 意图 时 ,因为 用 户 给 出 的 。 和 HowNet( 知 网 )。D. I. Moldovan 和 R. Mihalcea'” 
关键 词 不 同 而 返回 出 截然 不 同 的 检索 结果 ,最 终 影响 在 对 查询 语句 进行 相关 处 理 后 ,使 用 WordNet 中 的 词 
检索 质量 。 汇 对 查询 请 求 进行 查询 词 扩展 ,定义 其 查询 词 的 同 义 
如 果 在 进行 学 术 信 息 搜索 的 时 候 , 相 关 学 术 检 索 。” 词 集合 ,并 应 用 到 AltaVista 检索 系统 中 去 。 高 雪 霞 与 
系统 能 够 提供 一 个 简洁 的 搜索 框 ,并 有 旦 能 够 突破 用 户 ” 炎 士 涛 "提出 一 种 基于 Jaccard 系数 的 词义 消 歧 方 法 ， 


给 出 的 关键 词 局 限 , 理 解 用 户 真 正 检索 意图 ,实现 语义 ”以 WordNet 词 库 为 基础 ,对 查询 词 中 的 歧义 词 进行 消 
层面 的 信息 检索 ,无 疑 将 大 大 提升 学 术 信 息 检 索 的 效 。 歧 , 在 检索 结果 的 精确 度 方面 较 以 往 的 信息 检索 系统 
果 。 本 文 尝试 研究 利用 基于 深度 学 习 的 词 向 量 技术 ， ”提高 了 10%。 王 李 冬 与 张 慧 照 ” 以 国内 新 浪 微 博 平 
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台 的 文本 为 研究 对 象 , 基 于 HowNet 按照 语义 相关 度 对 


两 个 神经 网 络 语言 模型 从 语料库 中 学 习 词 汇 的 向 量 表 


中 文 待 检索 的 主题 词 和 新 浪 微 博 的 文本 词汇 进行 匹 
配 ,以 满足 用 户 的 查询 意图 ,对 微 博 的 短文 本 语义 检索 
进行 了 尝试 。 

基于 统计 的 方法 一 直 都 以 其 自身 严谨 、 科 学 的 特 
点 ,成 为 人 们 在 实现 语义 检索 时 的 首选 方法 。 近 年 来 
随 着 芯片 技术 和 机 器 学 习 算 法 的 发 展 ,给 计算 机 带 来 
了 更 强劲 的 算 力 和 更 强大 的 语义 理解 能 力 ,计算 机 对 
统计 方法 的 支持 ,使 得 统计 方法 凭借 其 高 效 .快捷 的 特 
点 ,在 语义 检索 研究 方面 又 焕发 新 春 。2003 年 D，ML 
Blei 等 "提出 的 LDA 主题 模型 使 得 人 们 得 以 从 主题 
相关 词 的 概率 统计 的 角度 实现 语义 检索 。 刘 启 华中 随 
后 基于 LDA 主题 模型 设计 了 PMM 模型 和 TBS 模型 ， 
活 现 的 语义 检索 系统 能 够 有 效 提升 系统 检索 效果 。 
cle 在 2013 年 推出 了 word2vec'” 101] 词 向 量 生 成 
使 得 人 们 能 够 从 大 规模 的 文本 语 料 中 进行 词 向 
网 训练 ,得 到 高 质量 的 词 向 量 以 应 用 到 后 续 的 自然 
语 和 处 理 任务 中 去 。 范 桥 青 和 方 钰 ”以 Reuters - 
2 克 38 和 120ask 中 的 文本 为 语料库 ,利用 word2vec 训 
练 加 的 词 向 量 来 比较 词语 间 的 语义 相似 度 ; 并 将 训练 
奸 的 词 向 量 结合 Axiomatic 最 优 检索 模型 ,实现 面向 健 
康 回 答 社 区 的 语义 检索 。 刘 梦 兰 等 ” 同样 以 word2vec 
池 襄 向量 训练 工具 ,结合 专利 文献 自身 的 特点 ,提出 了 
二 释 基 于 词 向 量 的 查询 扩展 方法 ,有 效 提升 专利 文献 
的 葵 索 效果 。 许 稳 堂 ”以 微 博文 本 为 研究 对 象 ,利用 
worg2vec 中 的 skip-gram 模型 训练 微 博 文本 的 词 向 量 ， 
通 寺 词 向 量 的 加 权 平均 以 获得 微 博文 档 及 查询 语句 的 
向 电表 示 ,设计 并 实现 了 一 种 基于 MRA 下 算法 的 微 博 
语义 检索 系统 。Word2vec 之 后 ,斯 坦 福 大 学 也 开放 了 
一 种 基于 全 局 的 词 向 量 训练 工具 Glove ” ,陈国华 
等 “基于 Glove 训练 词 向 量 ,利用 随机 映射 的 方法 ,在 
大 规模 的 向 量 空间 中 快速 定位 向 量 ,并 提出 了 一 种 学 
术 文 档 向 量化 的 方案 ,在 随后 的 学 者 网 学 术 检索 中 取 
得 良好 的 检索 效果 。2018 年 , Google 更 是 基于 词 向 量 
技术 ,向 外 界 推出 了 AI 检索 引擎 semantic experi- 
ences' ,用户 可 以 使 用 自然 语言 与 检索 系统 对 话 , 系 
统 根据 用 户 的 提问 ,而 不 是 拘泥 于 关键 词 ,回答 用 户 问 


题 。 


2.2 word2vec 

本 文采 用 word2vec 生成 工具 来 训练 学 术 文本 的 词 
向 量 。word2vec 是 Google 在 2013 年 向 外 界 推出 的 一 
款 词 向 量 生成 工具 ,由 T， Mikolov 领导 的 研究 小 组 研 
发 。word2vec 将 文本 语料库 作为 输入 ,利用 其 内 部 的 
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示 , 再 以 词 向 量 作为 输出 。 
word2vec 中 有 两 种 训练 词 向 量 的 框架 ( 见 图 1) ， 
日 以 预测 :中 给 定 上 下 文 的 情况 下 , 词 w 的 概率 的 
CBOW( continuous bag-of-words) ;@) 给 定 词 w 的 情况 
下 ,其 上 下 文 的 概率 的 Skip -gram (continuous skip - 
gram) 。 在 训练 过 程 中 ,两 种 架构 又 各 有 侧重 :CBOW 
在 词 向 量 的 训练 速度 方面 表现 出 色 ;Skip -gram 虽然 在 
训练 速度 上 较 慢 ,但 是 其 训练 低频 词 的 效果 较 好 。 


sl 


1 word2vec 的 CBOW 和 Skip -gram 框架 


3 ”语义 检索 系统 架构 

本 文 设计 了 如 图 2 所 示 的 一 种 基于 词 向 量 技术 的 
学 术 资 源 语 义 检索 系统 。 其 设计 思路 是 从 对 现 有 的 语 
义 检索 模型 和 系统 的 分 析 人 手 ,将 基于 深度 学 习 的 词 
向 量 的 文本 语义 处 理 技术 与 开源 的 全 文 搜索 引擎 elas- 
ticsearch 相 结合 融入 到 语义 检索 中 ,建立 基于 词 向 量 
扩展 的 语义 检索 系统 模型 ;然后 将 该 模型 应 用 于 学 术 
资源 的 语义 检索 服务 领域 ,并 对 其 语义 检索 效果 进行 
分 析 与 评估 。 

该 系统 主要 有 5 个 组 成 部 分 :数据 搜集 与 处 理 模 
块 . 词 向 量 模块 .查询 扩展 模块 全文 检 索 模 块 和 数据 
分 析 模 块 。 具 体 结构 见 图 2。 

数据 搜集 与 处 理 模 块 主要 负责 的 是 整个 语义 检索 
系统 所 需 的 学 术 文 献 资料 数据 的 搜集 任务 ,可 以 用 人 
工 导 入 网络 怜 虫 抓 取 .调用 接口 读 取 的 方式 从 个 人 信 
息 资 源 库 .专业 数据 库 和 互联 网 等 渠道 对 语义 检索 系 
统 所 需 的 文献 数据 进行 搜集 ,并 对 收集 来 的 数据 进行 
数据 质量 检查 以 及 数据 清洗 等 工作 。 最 终 准 备 好 文档 
对 象 和 规范 化 的 数据 , 提交 给 全 文 检 索 模 块 和 词 向 量 
模块 进行 文档 的 索引 和 词 向 量 的 训练 。 

词 向 量 模块 主要 负责 训练 出 词语 的 词 向 量 以 对 用 
户 查 询 进行 词 向 量 语义 查询 扩展 的 应 用 。 同 时 词 向 量 
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2 学 术 资 源 语义 检索 系统 的 组 成 结构 


庶 生 会 随 着 数据 集 的 更 新 而 不 断 进 行 更 新 ,确保 其 中 
词 诸 的 实效 性 和 覆盖 率 。 

[查询 词 扩展 模块 主要 负责 用 户 查 询 请 求 的 查询 词 
抗 怖 工作 。 首 先是 接受 用 户 的 查询 请 求 , 对 用 户 输入 
的 看 询 请 求 进行 分 词 去 停 用 词 等 操作 ,将 处 理 规范 的 
辑 测 请 求 利 用 词 向 量 模块 中 的 词 向 量 库 对 检索 词 进 行 
毛 确 ,并 将 扩展 查询 集 提交 给 后 续 的 全 文 检索 模块 进 
摧 户 查询 请 求 的 全 文 检索 活动 。 

“全 文 检索 模块 主要 负责 具体 的 全 文 检索 任务 。 首 


先是 将 数据 搜集 与 处 理 模块 整理 好 的 文档 对 象 导入 全 


入 


稚 索 引擎 中 ,依据 相应 的 分 析 器 进行 文档 的 索引 操 
作 @ 形 成 文档 的 索引 库 。 其 次 是 依据 传 进来 的 查询 请 
求 6E 索 引 库 检索 符合 要 求 的 文档 ,形成 初 检 结 果 。 最 
后 篇 据 特定 的 相关 性 评分 改进 算法 对 初 检 结果 进行 相 
关 性 评分 改进 ,使 之 能 够 更 加 符合 用 户 的 需求 ,按照 一 
定 的 排序 提交 到 用 户 界面 ,将 结果 展示 给 用 户 。 

数据 分 析 模 块 负责 的 是 对 检索 结果 进行 数据 分 析 
和 数据 可 视 化 的 任务 。 在 得 到 检索 结果 的 同时 ,用 户 
可 能 还 想 知道 这 些 检索 结果 内 在 的 一 些 数据 关联 。 对 
检索 结果 进行 数据 分 析 操 作 ,并 将 分 析 结果 以 可 视 化 
图 表 的 形式 返回 给 用 户 ,能 够 帮助 用 户 发 现 检索 结果 
的 内 在 规律 并 从 整体 把 握 检索 结果 特征 ,以 快速 定位 
自己 所 需 文献 ,甚至 启发 用 户 思考 ,进一步 厘清 自身 信 
息 需求 ,从 而 进行 二 次 检索 。 


4 系统 关键 技术 研究 


4.1 领域 词典 构建 技术 
所 谓 领域 词典 是 指 一 种 记载 了 特定 研究 领域 的 专 
有 词汇 或 术语 的 词典 。 分 词 工具 内 置 的 通用 词典 对 特 


定 领域 内 的 专 有 名 词 或 术语 收录 不 足 ,这 会 使 得 分 词 
工具 错误 切 分 相关 专 有 和 名词 或 术语 ,例如 ,将 “支持 向 
量 机 ” 切 分 成 “支持 /向 量 / 机 ”,“ 潜 在 语义 分 析 ” 切 分 
成 “潜在 /语义 /分 析 ”,“ 布 拉 德 福 定 律 ” 切 分 成 “ 布 / 拉 
德 福 / 定 律 ”, 等 等 。 

我 们 首先 利用 采集 来 的 比较 规范 的 学 术 资 源 元 数 
据 ,“Author- 作 者 ”Keyword -关键 词 ”" 和 “Organ -机 构 ” 
字段 中 的 数据 比较 规范 ,可 以 直接 引进 作为 领域 词 。 
为 尽 可 能 多 地 获取 领域 词语 ,本 文 又 以 点 互信 息 和 词 
频 为 统计 标准 ,从 语料库 中 继续 抽取 领域 词 。 

点 互信 息 (piontwise mutual information , 以 下 统一 
简称 PMI) 能 够 刻画 两 个 随机 变量 之 间 的 关联 程度 ,在 
领域 词 的 识别 任务 中 ,可 以 用 来 衡量 字符 间 的 结合 程 
度 。 其 计算 公式 如 式 (1) 所 示 : 


PMI(x,y) log 式 (1) 


其 中 ,PMI(x,y) 就 是 字符 串 x,y 的 点 互信 息 值 ,也 
就 是 它们 的 相关 程度 ;P(x) 表示 字 符 串 x 出 现 的 概率 ， 
P(y) 表 示 字 符 串 y 出 现 的 概率 ,P(x,y) 表 示 字 符 串 x， 
y 共 现 的 概率 。 当 PMI 值 小 于 或 者 等 于 零 时 ,说 明 二 
者 没有 明显 的 关联 性 ; 当 PMI 值 大 于 零 时 ,说明 二 者 相 
关 关 系 较 强 ,PMI 取 值 越 大 ,二 者 的 相关 关系 也 就 越 
强 。 

我 们 定义 分 词 后 得 到 的 每 个 独立 字符 组 合 ,无 论 
该 组 合 内 包含 多 少 个 字符 ,都 称 之 为 “ 词 单元 ”"。 例 
如 ,一 串 字 符 s1s,s3ssssse ,经 过 分 词 后 得 到 sis, | s; | 
s4sss6 , 则 sis, 、s; 、s4sss6 都 分 别 为 一 个 词 单元 。 而 连续 
的 词 单元 组 成 一 种 模式 ,有 几 个 词 单元 ,我 们 就 称 该 模 
式 为 几 维 模式 ,如 sis, 1s; 1sisss 为 三 维 模式 。 对 于 领 
域 词典 选 出 来 的 候选 词 ss 1s: 1s4ssse,sisy 1s; 和 s3 | 
s4sss6 来 说 ,sis,1ss 和 ss1sssss6 都 是 候选 词 模式 ss | ss 
1s4sss6 的 子 模式 。 

图 书 情报 领域 的 专业 术语 一 般 稳定 在 10 个 字 以 
内 ,也 就 是 经 常会 被 4 个 词 单元 内 的 组 合 所 覆盖 到 。 
另外 , 张 榕 "在 术语 数据 库 中 的 统计 研究 也 表明 ,由 2 
-4 个 词语 组 合 而 成 的 术语 占 到 总 体 的 71.723% 。 
此 ,在 这 里 我 们 只 考虑 2 个 .3 个 和 4 个 词 单元 组 合 出 
来 的 候选 词 情况 ,也 就 是 对 2 维 、3 维和 4 维 候选 词 进 
行 抽取 。 

领域 词典 候选 词 的 选取 步 又 为 : 

(1) 语 料 库 预 处 理 。 也 就 是 去 除 相 关 乱 码 , 并 以 
空格 替代 原先 语料库 中 的 中 英文 标点 符号 .数字 。 随 
后 以 哈尔滨 工业 大 学 停 用 词 表 对 语 料 中 的 停 用 词 进行 
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处 理 ,将 文中 的 停 用 词 也 替换 成 空格 。 

(2) 分词 并 统计 词 单元 词 频 。 使 用 python 编程， 
利用 jieba 分 词 模块 对 语 料 进行 分 词 ,得 到 分 词 后 的 语 
料 库 ,并 对 其 中 分 出 来 的 每 一 个 词 单元 进行 词 频 统计 ， 
为 后 续 的 PMI 计算 做 好 准备 。 

(3 ) 识 别 候选 词 。 以 经 过 分 词 的 语 料 作 为 遍历 素 
材 , 以 第 一 个 词 单元 为 开始 进行 循环 遍历 ,分 别 考察 循 
环 到 的 当前 词 单元 的 后 面 第 一 个 、 第 二 个 和 第 三 个 词 
单元 是 否 为 空 ,如 果 不 是 ,分 别 将 它们 记录 进 2 维 .3 
维和 4 维 候选 词 列表 ,如 果 其 中 任何 一 个 词 为 空 , 则 立 
即 终止 后 续 的 判断 ,进入 下 一 循环 。 遍 历 结束 后 ,我 们 
就 能 得 到 所 有 可 能 的 2 维 .3 维和 4 维 候选 词 列表 。 

(4) 候 选 词 初次 第 选 。 经 过 上 述 步 又 得 出 来 的 候 
选 词 只 是 词 单元 的 简单 组 合 情 况 ,并 不 能 当 作 一 种 领 
域 启 汇 来 用 。 以 2 维 候选 词 开 始 ,首先 对 各 个 候选 词 
及 形成 该 候选 词 的 词 单元 进行 词 频 统计 ,在 此 基础 上 
i 印 算 该 候选 词 的 PMI 值 。 对 于 不 符合 预先 设 定 的 词 
频 逢 PMI 阔 值 的 候选 词 子 以 删除 处 理 , 剩 下 的 词汇 即 
为 初次 筛选 合法 的 2 维 候选 词 (在 这 里 ,合法 意 为 可 以 
认为 该 词汇 是 正常 的 词汇 的 意思 ) 。 再 利用 这 些 合 
浇 的 2 维 候选 词 去 筛选 3 维 候选 词 。 即 ,合法 的 3 维 
候选 词 应 当 是 合法 的 2 维 候选 词 的 扩展 形式 ,删除 那 
些 信 包含 合法 2 维 候选 词 的 3 维 候选 词 , 并 在 此 基础 
上 起 计算 那些 剩 下 的 3 维 候选 词 的 词 频 和 PMI 值 , 并 
仿 据 词 频 和 PMI 阔 值 进行 筛选 ,得 到 初次 筛选 合法 的 
3 维 候选 词 。 最 后 依据 合法 的 3 维 候选 词 对 4 维 候选 
词 浊 行 筛选 ,做 法 如 利用 2 维 候选 词 对 3 维 候选 词 进 
行 韦 选 的 过 程 一 样 ,最 后 得 到 初次 筛选 合法 的 4 维 候 
选 词 。 

其 中 , 阅 值 的 选取 对 候选 词 的 确定 有 着 很 大 的 关 
系 。 经 多 次 试验 ,PMI 和 词 频 阔 值 定 在 5 和 20 得 到 的 
候选 词 数量 和 质量 都 较为 合理 。 

在 抽取 出 领域 词 的 候选 词 集 之 后 ,以 如 下 的 规则 
对 候选 词 进行 筛选 和 剔除 :删除 表示 时 间 日 期 和 表示 
数量 的 词汇 ;合并 某 种 模式 的 子 模式 ;删除 “该 “应 ” 
“这 "等 单字 辅助 词 开头 或 者 结尾 的 字符 串 ;删除 * 非 
党 “十 分 “很 难 "等 包含 表示 程度 的 词汇 。 

4.2， 词 向 量 语义 扩展 技术 

(1) 语 义 概念 扩展 词 来 源 。 语 义 概念 扩展 所 需 的 
词语 来 源 是 学 术 资 源 元 数据 。 在 对 采集 来 的 学 术 资 源 
元 数据 进行 筛选 去除 标点 符号 ` 分 词 及 去 除 停 用 词 等 
处 理 之 后 ,将 其 作为 语 料 导入 word2vec 进行 词 向 量 的 
训练 ,最 终 得 到 该 语料库 中 词语 的 向 量 表示 及 各 个 向 
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量 之 间 的 语义 距离 。 

(2) 语 义 概 念 扩展 词 选 取 标 准 。 语 义 距离 方面 。 
word2vec 能 够 根 输入 词 返回 其 语义 相近 的 词 及 其 语义 
相似 度 。 语 义 相似 度 越 接 近 于 1, 则 说 明 两 个 词汇 的 
语义 越 相 近 。 在 这 里 我 们 选取 的 语义 相似 度 阔 值 是 
0.85 , 当 两 者 之 间 的 语义 相似 度 大 于 这 个 浆 值 时 , 则 认 
为 两 者 存在 较 强 的 语义 关联 ,可 以 将 该 词汇 作为 查询 
扩展 词 加 入 检索 式 中 去 。 

语义 扩展 词 的 最 大 个 数 方面 。 查 询 扩展 本 意 是 
通过 多 提供 额外 信息 的 方式 ,帮助 检索 系统 明确 用 
户 的 检索 意图 ,从 而 实现 更 好 的 检索 效果 。 但 是 扩 
展 的 查询 词 过 多 也 会 带 来 额外 的 信息 干扰 。 在 进行 
查询 词 扩展 的 时 候 , 需 要 把 握 好 检索 词 数 量 和 检索 
结果 集 数量 之 间 的 关系 。 本 文采 取 与 word2vec 默认 
返回 最 相似 的 10 个 词汇 相同 的 标准 ,也 就 是 说 ,最 多 
每 个 原 查 询 词 会 有 10 个 符合 语义 距离 国 值 的 查询 扩 
展 词 。 

(3) 基 于 词 向 量 的 语义 查询 扩展 流程 。 本 文 基于 
词 向 量 的 语义 查询 扩展 流程 分 为 以 下 几 个 步骤 :首先 ， 
用 户 进行 检索 查询 输入 。 然 后 对 用 户 的 查询 输入 进行 
查询 预 处 理 , 预 处 理 操作 包括 利用 导入 了 领域 词典 的 
jieba 分 词 算法 进行 分 词 .利用 哈工大 停 用 词 表 去 除 停 
昌 词 去除 标点 符号 等 。 之 后 利用 训练 好 的 词 向 量 库 
对 用 户 查 询 进 行 扩展 ,对 于 符合 语义 关系 浆 值 的 词汇 ， 
加 入 到 查询 扩展 词 中 去 ,与 原 查 询 词 形成 查询 扩展 集 
合 。 最 后 ,将 查询 扩展 集合 输入 检索 系统 ,进行 信息 检 
索 。 

4.3 针对 学 术 文 献 的 个 性 化 评分 方案 

本 文选 取 Elasticsearchi21 作 为 语义 检索 系统 的 检 
索引 擎 ,Elasticsearch 默认 使 用 的 是 Lucene 的 内 部 的 
TIVZIDF( 词 频 / 反 文档 ) 文档 相关 性 评分 机 制 ,其 计算 
公式 如 式 (2) 所 示 : 

score(q,d) = queryNorm(q) * coord(g,d) * A 
(tind)* idf(1)” *t. getBoost( ) * norm(i1,d)) 式 (2) 

式 (2) 的 各 个 组 成 因子 释义 见 表 1。 

上 述 Elasticsearch 的 文本 相关 性 评分 算法 在 实际 
应 用 中 已 经 有 着 很 好 的 表现 ,但 是 在 针对 学 术 文献 进 
行 检索 时 ,其 表现 力 还 是 略 有 不 足 , 主 要 体现 在 :中 其 
未 能 考虑 查询 词 出 现在 文献 中 的 位 置 所 带 来 的 相关 性 
影响 ; 书 其 未 能 考虑 原 查 询 词 和 扩展 查询 词 之 间 的 语 
义 差 别 ;@ 其 未 能 考虑 文献 被 引 情况 所 体现 的 文献 
价值 。 


2 


广 上 innyviwv 公 人 和 下 
ChinaXiv 合 1 


王仁 武 ， 陈 川 宝 , 孟 现 茹 . 基于 词 向 量 扩 展 的 学 术 资 源 语义 检索 技术 [J]]. 图 书 情报 工作 ,2018,62(19):111 - 119. 


表 1 Elasticsearch 默认 评分 公式 中 的 组 成 因子 及 其 含义 


编号 组 成 因子 因子 含义 
1 score(q,d) 被 检索 文档 查询 请 求 的 吻合 程度 ,也 就 是 文本 的 相关 度 
2 queryNorm( q) 查询 归 一 化 因子 。 在 不 影响 文本 相关 性 排名 的 情况 下 , 归 一 化 因子 对 文本 的 相关 性 评分 进行 归 一 化 处 理 , 使 得 最 终 
的 文本 相关 性 得 分 稳定 在 一 个 区 间 内 ,方便 不 同 查询 方式 的 相关 度 分 数 的 比较 。 归 一 化 通常 采用 的 计算 方法 是 : 
queryNorm(q) = 一 
sumOfSquared Weights 
其 中 ,sumOfSquaredWeights 是 查询 请 求 q 中 词 项 t 的 idf 平 方 和 
3 coord( q,d) 协调 因子 。 用 来 刻画 检索 请 求 q 中 的 词 项 t 被 文档 匹配 到 的 比例 , 越 多 的 查询 项 在 一 个 文档 中 ,说 明文 档 的 匹配 
程度 越 高 。 协 调 因子 通常 采用 的 计算 方式 是 : 
coord(q,d) = ra 
maxoverlap 
莽 中 ,overlap 表示 文档 d 包含 的 检索 请 求 q 中 词 项 t 的 个 数 ,maxoverlap 表示 检索 请 求 q 中 的 全 部 词 项 t 个 数 。 
4 tf(t in d) 词 频 因子 。 用 来 刻画 检索 请 求 q 中 的 词 项 t 在 被 检 文 档 d 中 出 现 的 次 数 ,出 现 的 次 数 越 多 ,被 检索 文本 与 检索 请 
求 的 相关 性 就 越 高 。 词 频 因子 通常 采用 的 计算 方法 是 : 
t(t in d) = Vfrequency 
其 中 ,frequency 表示 检索 请 求 q 中 的 词 项 t 在 被 检 文 档 d 中 出 现 的 次 数 
5 idf( 1) 逆 词 频 因 子 。 用 来 刻画 检索 请 求 q 中 的 词 项 t 的 在 所 有 文档 中 出 现 的 逆 文 档 频 率 ,出 现 频率 越 高 ,说 明 该 词汇 特 


频 因子 通常 的 计算 方法 是 : 


getBoost( ) 


标准 化 因子 。 


notm(t,d) 


关于 上 述 的 第 一 和 第 二 点 不 足 , 张 孝 飞 和 和 孔 敏 
和 Si 建议 学 术 文献 中 文献 的 各 个 分 块 ( 即 “题名 ”“ 关 
鱼池 “摘要 ”和 “正文 "等 字段 ) 和 扩展 查询 词 应 该 在 
艾 埠 检索 中 分 配 不 同 的 价值 权重 ,并 给 出 了 相应 权重 
的 本 值 和 计算 方式 。 而 对 于 第 三 点 不 足 , 著 名 的 Pag- 
FED 算法 则 给 出 了 一 个 比较 好 的 思路 。 即 ,被 引 
高 的 学 术 文献 其 往往 具有 较 高 的 质量 或 者 较 显著 
I 代表 性 ,在 文本 相关 性 评分 时 ,其 评分 应 予以 适当 的 
提 天 。 
在 此 ,本 文 提出 一 种 适用 于 学 术 文献 语义 检索 的 
个 性 化 评分 策略 。 首 先是 学 术 文献 的 不 同 字段 权重 值 
方面 ,经 多 次 试验 ,对 “题名 ”关键 词 "和 “摘要 ”字段 ， 
分 别 赋予 1.2.1.1 和 1 的 权重 ,在 建立 文档 的 映射 的 
时 候 以 boost 值 指定 。 也 就 是 说 ,其 不 同 字段 在 相关 性 
评分 时 的 重要 程度 是 : “题名 ”>“ 关 键 词 ”>“ 摘 要 ”。 
然后 是 原 查 询 词 与 扩展 查询 词 的 权重 分 配方 面 , 原 查 
询 词 予 以 1 的 权重 分 配 ,而 扩展 查询 词 的 权重 取 值 则 
是 词 向 量 给 出 的 其 与 原 查 询 词 的 语义 关联 值 , 在 查询 
时 以 boost 值 指定 。 最 后 是 文献 被 引 情况 对 文本 相关 
性 评分 的 影响 方面 ,利用 DSL 中 function_score 函数 的 
field_value_factor 参数 ,将 文献 的 被 引用 量 纳入 考量 ， 
以 log 对 数 函数 对 被 引 量 citation 进行 平滑 处 理 ,避免 
过 高 的 被 引 量 带 来 的 干扰 。 其 具体 的 计算 方式 是 :log 
(1 +citation) ,在 此 基础 上 与 原 相 关 性 评分 进行 相 加 操 


殊 性 不 是 很 强 , 评 分 权重 就 越 低 。 反 之 ,说 明 该 词汇 很 具有 特殊 性 ,能 够 区 分 出 文档 的 性 质 ,评分 权重 越 高 。 逆 词 


numDocs 


tf(tin d) =1 +log jos 


其 中 ,numDocs 为 文档 总 数 ,docFreq 为 词 项 t 在 所 有 文档 中 出 现 的 次 数 
预 设 定 的 权重 因子 。 在 为 文档 建立 索引 时 ,为 每 个 字段 所 预先 设 定 的 权重 值 ,默认 情况 下 是 1 
是 在 索引 时 为 字段 所 分 配 的 权重 值 与 字段 长 度 的 归 一 之 和 


作 (sum) , 则 文本 的 最 终 相 关 性 得 分 如 式 (3 ) 所 示 : 
最 终 相关 性 得 分 = 未 考虑 文本 引用 量 的 相关 性 得 
式 (3 ) 


5 系统 实现 与 评估 


5.1 实验 源 数据 来 源 

此 次 实验 使 用 的 论文 元 数据 采集 自 中 国 知 网 中 
2002 -2017 年 这 15 年 间 的 图 书馆 、 情 报 与 档案 (以 下 
简称 “图 情 档 ”) 领域 核心 期 刊 文献 元 数据 , 总 计 
122 519 篇 文献 元 数据 。 同 时 在 中 国 知 网 中 ,以 网 络 扑 
虫 的 方式 对 这 122 519 篇 文献 的 被 引 量 进行 候 取 ,用 于 
文档 相关 性 评分 的 加 权 改 进 。 图 情 档 领域 核心 期 刊 选 
取 标 准 是 依据 2017 年 最 新 版 北大 核心 期 刊 要 目 总 览 
中 G25 图 书馆 事业 信息 事业 和 G27 档案 事业 栏目 中 
收录 的 28 种 核心 期 刊 ”。 已 采集 的 122 519 篇 论文 
元 数据 所 含 字段 及 其 含义 见 表 2。 
5.2 ”领域 词典 分 词 效 果 评 测 

根据 前 面 设计 的 领域 词典 自动 构建 算法 ,我 们 一 
共 得 到 初始 2 维 候选 词 432 457 个 ,3 维 候选 词 335 062 
个 ,4 维 候选 词 157 853 个 。 在 对 候选 词 进行 PMI 值 、 
词 频 值 的 王选 和 规则 过 滤 之 后 ,最 终 得 到 4 393 个 正 
式 领域 词 。 其 中 ,2 维 候选 词 3 590 个 ,3 维 候选 词 681 
个 ,4 维 候选 词 122 个 。 

结合 直接 引进 的 223 831 个 论文 源 数据 相关 词汇 ， 


分 +log(1 + citation) 
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表 2 学 术 资 源 元 数据 字段 及 其 含义 表 5 4 维 领域 词 部 分 示例 
编号 元 数据 字段 字段 含义 编号 词语 PMI 值 词 频 
1 DataType 文献 类 型 供给 侧 结构 性 改革 11. 136 396 89 26 
2 Title- 题 名 文献 题名 2 文献 资源 共 建 共享 9.413 718 519 105 
3 Author- 作 者 文献 作者 3 模糊 综合 评判 法 6.053 802 481 26 
4 Source- 刊 名 文献 发 表 的 期 乔 4 联合 数字 参考 咨询 7. 057 873 748 26 
5 Year- 年 文献 发 表 的 年 份 5 政府 信息 公开 条 例 10.743 964 72 213 
6 PubTime- 出 版 时 间 文献 出 版 时 间 6 中 国 科学 引文 数据 库 10. 087 290 84 27 
7 Keyword -关键 词 文献 关键 词 7 儿童 阅读 推广 活动 7.608 196 978 26 
8 Summary -摘要 文献 摘要 8 人 大 复印 报刊 资料 10. 856 380 89 36 
9 Period -期 刊载 于 期 刊 第 几 期 9 协同 过 滤 推 荐 算法 10.433 849 17 30 
10 Roll 刊载 于 期 刊 第 几 卷 10 农村 公共 文化 服务 6.615 571 814 47 
11 PageCount- 页 数 文献 所 占 页 数 . . 
补 Page 页码 文献 所 在 页 全 之 后 ,我 们 将 领域 词典 导入 jiaba 分 词 的 用 户 词 
13 SreDatabase 来源 数据 库 文献 来 源 数据 库 典 , 在 语料库 中 与 未 添加 领域 词典 的 分 词 效 果 进 行 分 
De Organ -机构 发 文 作者 所 属 机 构 词 对 比 实验 。 
> Link 链接 文献 链接 未 添加 领域 词典 的 jieba 分 词 算法 的 分 词 效 果 如 
Citation 文献 被 引 量 3 所 示 : 
Sg 分 词 自 带 的 字典 中 的 词汇 去 重 ,最 后 得 到 针对 /图 书 /借阅 / 量 /数据 /呈现 /的 / 非 /平稳 /动态 随机 /变化 /特性 / /采用 / 支 
2652826 个 领域 词汇 加 入 到 后 续 的 分 词 活 动 中 。 持 /向 量 /机 /作为 / 建 模 /工具 / /利用 /混沌 /时 间 /序列 /理论 /对 /图 书 /借阅 / 
CO 其 中 ,自动 抽取 的 2 维 .3 维和 4 维 的 领域 词 示例 流量 /行为 /进行 /了 / 建 模 /和 /学 习 / 预 测 / /结果 表明 / /该 /方法 /可 /有 效 / 解 
决 /图 书 /借阅 /行为 /中 /的 / 非 线性 /问题 / /预测 /结果 /合理 / /对 /提高 /图 书 / 
如 前 3- 表 5 所 示 : 借阅 /管理 /质量 /有 / 较 /好 /的 /理论 /和 /实践 /参考 价值 
GN 表 3 2 维 领域 词 部 分 示例 
本 i 基于 /品牌 /建设 /的 /视角 / /以 /海南 /职业 /技术 /学 院 / /演练 /说 / /立体 / 阅 
读 /推广 /活动 /模式 /为 例 / /分 析 / 高 职 / 院 校 /图 书馆 /立体 /阅读 /推广 /品牌 / 
ee 城市 图 人 3” 建设 /的 /内 涵 / 和 /意义 / /总 结 /高 职 / 院 校 /图 书馆 /立体 /阅读 /推广 /活动 / 存 
.之 语义 关系 9:213 30334 30 在 /的 /问题 /着 / 提 出 /相应 /的 /对 策 / /为 /构建 /具有 /高 职 / 院 校 /图 蔬 馆 / 特 
>< 舆情 监控 8. 148 695 785 45 色 /的 /阅读 /推广 /品牌 /提供 /借鉴 /和 /参考 
© 智能 终端 8.202 143 507 24 
.全 情感 词 册 gyi 可 3 ”未 添加 领域 词典 的 jieba 分 词 算法 的 分 词 效果 
GE 私有 云 9.133 067 131 30 
人 数字 仓储 a 新 添加 了 领域 词典 的 jieba 分 词 算法 的 分 词 效 果 如 
8 决策 咨询 5.081 141 5 70 4 所 示 : 
9 时 间 序 列 9.563 574 419 91 针对 /图 书 借阅 量 /数据 /呈现 /的 / 非 /平稳 /动态 随机 /变化 特性 / /采用 /支持 
10 浅 阅 读 7.063 534 789 92 向 量 机 /作为 / 建 模 /工具 / /利用 /混沌 时 间 序列 /理论 /对 /图 书 借阅 流量 /行为 
/进行 /了 / 建 横 /和 /学 习 /预测 / /结果 表明 / /该 /方法 /可 /有 效 /解决 /图 书 借 
表 4 3 维 领 域 词 部 分 示例 阅 /行为 /中 /的 / 非 线性 /问题 / /预测 /结果 /合理 / /对 /提高 /图 书 借阅 /管理 / 
人 质量 /有 / 较 /好 /的 /理论 和 实践 /参考 价值 
1 网 络 出 版 总 库 8.274 331 619 154 
基于 /品牌 建设 /的 /视角 / /以 /海南 职业 技术 学 院 / /演练 /说 / /立体 /阅读 扒 
印刷 型 文献 人 人 广 活动 /模式 /为 例 / /分 析 /高 职 院 校 图 书馆 /立体 /阅读 推广 /品牌 建设 /的 /内 
3 言 息 生 态 链 9. 352 306 309 440 涵 / 和 /意义 / /总 结 /高 职 院 校 图 书馆 /立体 /阅读 推广 活动 /存在 的 问题 /并 / 提 
4 农家 书屋 工程 6.964 913 295 34 出 /相应 /的 /对 策 / /为 /构建 /具有 /高 职 院 校 图 书馆 /特色 /的 /阅读 推广 /品牌 
5 跨 语 言 检索 6. 858 043 683 22 /提供 /借鉴 /和 /参考 , 
6 支持 向 量 机 8.029 998 022 89 2 i 
a 二 生生 入 ee i 4 添加 领域 词典 后 的 jieba 分 词 算法 的 分 词 效果 
OO 和 从 这 两 个 分 词 效果 的 测评 片段 我 们 可 以 看 出 ,加 
es ee ” ”入 领域 词典 后 的 分 词 效 果 更 为 显著 。 其 能 够 识别 领域 
10 联机 合作 编目 11.754 596 34 30 


特有 词汇 ,诸如 “ 文 持 向 量 机 ”"“ 混 沌 时 间 序 列 ” 等 词 
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汇 ,也 能 对 “海南 职业 技术 学 院 ” 这 样 的 机 构 名 命名 实 
体 进行 良好 的 识别 。 

随后 以 人 手工 分 词 100 篇 摘要 为 标准 集 , 与 引入 
领域 词典 和 未 引入 领域 词典 的 jieba 分 词 做 对 比试 验 。 
实验 结果 表明 ,未 引入 领域 词典 的 jieba 分 词 的 平均 准 
确 率 为 87.42% ,引入 了 领域 词典 的 jieba 分 词 的 平均 
准确 率 为 97.44% 。 领 域 词典 的 引入 ,使 得 分 词 的 平均 
准确 率 上 升 了 109% 。 
5.3 学术 资源 词 向 量 的 训练 

本 文采 用 Python 编程 语言 机 器 学 习 包 gensim 中 
的 word2vec 模块 来 训练 查询 扩展 所 需要 的 词 向 量 。 首 


先 利 用 5.2 生成 的 领域 词典 对 5.1 获取 的 图 情 档 领域 
语 料 进行 jieba 分 词 去 停 用 词 等 操作 ,形成 一 个 经 过 
处 理 好 的 语料库 ;然后 ,将 语料库 加 载 到 word2vec 算法 
中 ,进行 词 向 量 的 训练 ,得 到 一 个 词 向 量 库 ,并 将 该 词 
向 量 库 以 二 进 制 的 形式 保存 ,方便 后 面 程序 的 调用 。 
词 向 量 训练 时 的 参数 设置 见 表 6, 其 中 主要 参数 词 向 
量 窗口 设置 为 5 个 词语 窗口 , 词 向 量 维度 设置 为 200 
维 。 在 词 向 量 库 的 更 新 方面 ,将 定期 载 人 新 的 语 料 ,并 
对 其 进行 训练 后 同样 保存 为 二 进 制 词 向 量 库 , 用 最 新 
的 词 回 量 库 蔡 换 以 往 旧 的 词 癌 量 库 。 


表 6 word2vec 词 向 量 训 练 参 数 设 置 


Word2vec 


训练 参数 设置 人 
Es=4| 


Word2vec 


参数 含 》 
训练 参数 参数 含义 


> ee 0 ,对 应 CBOW 算法 ;1 则 采用 skip-gram 算法 0d i 量 的 维度 ,大 的 size 需要 更 多 的 训练 数据 ,但 是 效果 
© 会 更 好 
PT window =5 表示 当前 词 与 预测 词 在 一 个 句子 中 的 最 大 距离 alpha =0. 025 模型 的 学 习 率 
LO .own =5 词 频 少 于 min_count 次 数 的 单词 会 被 丢弃 掉 hs =0 1 采用 hierarchica . softmax ,0 则 negative sampling( 负 采样 ) 
全 iter =5 迭代 次 数 batch_words =10000 ”每 一 批 的 传递 给 线程 的 单词 的 数量 
SC 


5 系统 查 全 率 、 查 准 率 和 Fl 值 表现 情况 

号 -一般 而 言 ,信息 检索 的 查 全 率 (recall) 和 查 准 率 
(全 glision) 是 人 们 最 常用 到 的 信息 检索 评价 指标 。 所 
清查 全 率 ,是 指 检索 结果 集中 ,相关 的 结果 与 应 该 被 
答案 到 的 相关 结果 的 比值; 查 准 率 是 指 在 检索 结果 集 
中 3H 关 的 结果 与 全 部 检索 结果 集 的 比值 

人 @Q (1) 查 全 率 公式 如 式 (4) 所 示 : 
c ho _ 被 检 出 的 相关 结果 


= 全 部 相关 结果 
〇 (2) 查 准 率 公 式 如 式 (5 ) 所 示 : 
被 检 出 的 相关 结 : 
Precision = 全 部 被 检 出 的 结果 要 式 (5) 


(3) Fl 值 。 在 检索 过 程 中 ,人 们 一 般 想 要 同时 获 
得 最 高 的 查 全 率 和 查 准 率 。 但 是 在 实际 操作 中 往往 达 
不 到 如 此 的 效果 ,一 个 极端 的 情况 是 ,如 果 只 返回 一 个 
正确 的 检索 结果 ,那么 其 查 准 率 会 是 100% ,而 此 时 的 
查 全 率 却 极 低 ; 或 者 系统 耗费 巨大 的 代价 将 全 部 相关 
文献 找 回 ,但 是 此 时 往往 也 会 带 回 大 量 的 无 关 文 献 , 导 
致 查 准 率 极 低 。 需 要 一 种 评价 方案 ,能 够 同时 考虑 查 
全 率 查 准 率 ,对 检索 系统 进行 评 佑 。 


Fl 值 就 是 一 个 很 好 的 选择 ,能 够 综合 考量 两 者 的 
影响 ,其 计算 方式 如 式 (6) 所 示 : 
2 x Recall * Precision 
bs Recall + Reecision 式 (6) 
因此 ,本 文 还 选取 Fl 值 对 检索 系统 性 能 进行 评 


佑 ,以 从 整体 对 检索 系统 进行 评估 。 
分 别 选 取 与 “档案 文化 “数据 挖 据 "“ 信 息 素 养 ” 
这 3 个 关键 词 相关 的 文献 元 数据 50 篇 ,和 与 这 3 者 都 
不 相关 的 文献 元 数据 150 篇 ,总 计 300 篇 文献 元 数据 
进行 检索 性 能 测评 ,测评 选取 的 指标 为 上 文 提 到 的 查 
全 率 查 准 率 和 FT] 值 ,结果 如 表 7 所 示 : 
表 7 系统 查 全 率 和 查 准 率 


检索 词 使 用 方法 ”检索 结果 相关 结果 ” 查 全 率 ” 查 准 率 
当 案 文 化 ” 基于 关键 词 40 26 52.00% 65.00% 
本 文 方法 53 35 70.00% 66.04% 

数据 挖掘 。 基于 关键 词 46 31 62.00% 67.39% 
本 文 方法 55 38 76.00% 69.09% 

信息 素养 “基于 关键 词 39 28 56.00% 71.79% 
本 文 方法 53 41 82.00% 77.36% 


注 : 本 文 方法 是 指 基于 词 向 量 的 语义 查询 扩展 方法 
将 上 述 查 全 率 和 查 准 率 结果 转化 为 柱 形 图 ,以 直 
观 地 展现 系统 表现 情况 , 详 见 图 5 与 图 6: 


90% 82.00% 
区 的 70.00% ee 
70% 62.009% 
0 56.00% 
50%% 
40% 
309% 
20% 
109%6 
0% 档案 文化 数据 挖 气 信息 素养 
a 基于 关键 词 “文本 方法 


图 5 系统 查 全 率 
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80% 


7 77.36% 
76% 
74% 
720% 71.79%0 
7096 69.09% 
67.39% 

63% 66.049% 
6690 65.0090 
64% 
62% 
60% 
58% 本 

档案 文化 数据 挖掘 信息 素养 


a 基 于 关键 词 "文本 方法 
图 6 系统 查 准 率 


从 表 7.、 图 5 .图 6 可 以 直观 地 感受 到 ,与 以 往 的 基 
于 关键 词 匹 配 的 查询 方法 相 比 ,利用 词 向 量 进行 语义 
查询 扩展 的 检索 方法 在 查 全 率 的 提升 方面 要 较 查 准 率 
的 提升 更 为 显著 :在 查 准 率 方面 ,基于 词 向 量 来 进行 语 
查询 扩展 的 检索 方法 的 检索 效果 平均 要 比 基 于 关键 
记 区 配 的 检索 方法 的 检索 效果 要 高 2.77% ;而 在 查 全 
率 放 面 ,基于 词 向 量 来 进行 语义 查询 扩展 的 检索 方法 
的 答案 效果 平均 要 比 基 于 关键 词 匹配 的 检索 方法 的 检 
索 鸥 果 要 高 19.33% 。 造 成 这 种 现象 的 原因 也 不 难 解 
稀 : 舞 传统 的 基于 关键 词 匹配 的 检索 方法 相 比 ,基于 词 
有 
的 检索 词 加 入 到 检索 活动 中 去 ,因此 能 够 带 回 更 多 相 
te ee tn pk 
扩 诬 出 来 的 查询 词 提升 查 全 率 时 ,其 又 会 带 来 很 多 无 
关 哆 但 是 也 包含 相应 检索 词汇 的 文档 ,系统 查 准 率 压 
大 。 需 要 依靠 提升 扩展 词 选取 阔 值 .改进 检索 相 
关 性 算法 等 手段 ,控制 检索 结果 ,表现 为 查 准 率 的 轻微 
提 寞 。 
〇 最 后 ,我们 将 系统 的 查 全 率 和 查 准 率 综合 考虑 ,以 
Fl 值 考察 系统 查 全 率 . 查 准 率 ,结果 如 图 7 所 示 : 


79.61% 
72.389% 
Er 64.58% 62.929% 
57.78% | 
档案 文化 数据 挖掘 信息 素养 


基于 关键 词 “文本 方法 


图 7 系统 Fl 值 


从 图 7 中 可 以 看 出 ,系统 在 Fl 值 上 也 有 所 提升 ， 
几 次 查询 下 来 ,其 Fl 值 平均 提升 了 11.56% 。 

从 系统 查 全 率 ` 查 准 率 和 Fl 值 的 整体 表现 ,可 以 
了 解 到 , 现 阶段 应 用 词 向 量 语义 扩展 查询 的 检索 方法 ， 
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较 之 以 往 的 关键 词 匹配 方法 要 有 优越 性 ,其 能 够 提升 
系统 检索 的 效果 ,尤其 是 系统 的 查 全 效果 。 


本 文 以 word2vec 为 词 向 量 生 成 工具 ,以 Eastic- 
search 为 全 文 检索 引擎 搭建 语义 检索 系统 并 针对 其 中 
的 关键 技术 一 一 领域 词典 自动 化 构建 技术 、 词 向 量 语 
义 扩 展 技术 和 针对 学 术 文献 的 个 性 化 评分 方案 进行 设 
计 。 对 采集 到 的 图 情 档 领 域 12 万 余 篇 学 术 文献 的 语 
义 检 索 实 验 表明 ,其 能 够 明显 提升 信息 检索 效果 ,对 今 
后 语义 检索 研究 有 一 定 借鉴 意义 。 

本 研究 对 于 语义 检索 结果 的 排序 算法 以 及 以 后 用 
于 个 性 化 的 学 术 文 献 推 荐 还 没有 展开 ,有 待 进一步 研 
究 。 
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-Abstract. [Purpose/significance | Based on the statistical method, the paper explored the semantic retrieval tech- 


based on word embedding expansion to enhance the semantic retrieval ability of academic resources. [ Method/ 
ess | Using Natural Language Processing and text mining technology, the paper preprocessed the collected academic 
reselrces (mainly academic papers) metadata, combined the Word2vec word embedding generation tool and the elastic- 
foll text retrieval engine to build semantic retrieval system, and explored the semantic retrieval of academic re- 
se [ Result/ conclusion | The method proposed in this paper can effectively improve the retrieval effect of academic 
idation , and it realizes the semantic retrieval of academic resources to a certain extent, and could provide reference for 
further research on the follow-up semantic retrieval. 
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《 泛 在 信息 社会 与 图 书馆 服务 转型 》 书 讯 


由 朱 强 (北京 大 学 图 书馆 前 馆 长 .研究 馆 员 )、 别 立 谦 ( 北 京 大 学 图 书馆 副 馆 长 、 副 研究 馆 员 ) 主 编 的 《 泛 在 信息 
社会 与 图 书馆 服务 转型 》 一 书 , 日 前 (2018 年 3 月 ) 由 人 民 出 版 社 出 版 。 本 书 是 国家 社 科 基 金 重 点 项 目 “ 面 向 泛 在 
信息 社会 的 国家 战略 及 图 书馆 对 策 研究 ”的 成 果 。 该 书 在 对 “ 泛 在 信息 社会 “ 泛 在 图 书馆 ” 认 知 调查 分 析 , 对 美 
“智慧 地 球 "计划 日本“U-Japan 计划 欧洲 "数字 社会 "计划 韩国"U-Korea ”计划 及 我 国 台湾 地 区 ”“U-Taiwan ”计划 
和 发 展现 状 调研 的 基础 上 ,提出 中 国 应 尽早 明确 确立 以 泛 在 技术 作为 战略 支撑 以 泛 在 大 数据 作为 战略 基础 以 泛 
在 信息 服务 作为 社会 服务 转型 的 重点 、 以 “ 泛 在 人 "作为 教育 的 终极 目标 、 以 与 泛 在 信息 管理 与 服务 相 适 应 的 法 律 
法 规 为 基础 保障 的 的 “ 泛 在 中 国 ”(U-China) 国家 战略 ,并 为 此 战略 框架 下 传统 图 书馆 向 “ 泛 在 图 书馆 ”转型 发 展 指 
明 方 向 ,为 其 提供 技术 转型 .资源 转型 ,服务 转型 和 管理 转型 对 策 ,为 我 国 泛 在 信息 化 建设 战略 的 正式 出 台 和 泛 在 
图 书馆 的 战略 转型 提供 参考 。 


男 


A 
~~— ~ ~ ~ ~ 


二 


119 


